Research Report

多种类型癌症基因表达数据的Meta分析以预测生物标志物和药物靶标  

Shashank K.S.1 , Mamatha H R.1 , Prashantha C.N.2
1信息科学系, PES技术研究所, 班加罗尔, 印度;
2生物科学系, 生物科学中心, 班加罗尔, 印度
作者    通讯作者
计算分子生物学, 2015 年, 第 4 卷, 第 11 篇   doi: 10.5376/cmb.cn.2015.04.0011
收稿日期: 2015年08月17日    接受日期: 2015年09月25日    发表日期: 2015年10月16日
© 2015 BioPublisher 生命科学中文期刊出版平台
本文首次以英文发表在 Computational Molecular Biology上。现依据版权所有人授权的许可协议,采用 Creative Commons Attribution License 协议对其进行授权,用中文再次发表与传播。只要对原作有恰当的引用, 版权所有人允许并同意第三方无条件的使用与传播。如果读者对中文含义理解有歧义,
推荐引用:

Shashank K.S., Mamatha H.R., and Prashantha C.N., 2015, Meta Analysis of Gene Expression Data of Multiple Cancer Types To Predict Biomarkers and Drug Targets Interactions in Ovarian Cancer, Computational Molecular Biology, 5(5): 1-9

摘要

多种癌症(例如: 乳腺癌, 结肠癌和卵巢癌)的基因表达数据的Meta分析,可用于鉴定预后和分子诊断标志物等功能基因的特征。但是,寻找一种可靠的能够鉴别不同癌症类型的基因特征的方法仍然是一种挑战。本研究的目的是开发微阵列统计数据分析方法和SVM分类器,以确定在不同的癌症类型中的差异表达基因。使用我们的方法来测试16组数据,如6个乳腺癌,4结肠癌和6卵巢癌的不同的数据。我们利用4种方法对结果进行分析:(a) 对数据进行预处理,通过删除空白值和非有效值以确定表达数据的质量(p<0.05);(b) 利用统计学分析基因差异表达情况以预测上调和下调的基因表达情况;(c) 根据癌症的类型进行数据的分组;(d) 基因网络预测,确定基因-基因的相互作用以了解生物标记。我们已经预测了乳腺癌中的8个标志物,结肠癌中的10个标记物和卵巢癌中的16个标志物,为癌症的诊断和治疗发展提供了新的方向。

关键词
乳腺癌;结肠癌;卵巢癌;基因芯片;统计; Limma, Biocoductor;geNETClassifier

癌症是疾病中很大的一个家族,能够危害人类的健康和生活。据调查显示,世界范围内,2014-15年度有22%的疾病死亡是由于癌症引起的(癌症的病例297例, WHO, 2014)。在印度,癌症是仅次于心脏病的第二大致死性疾病。关于癌症的统计调查显示,82%的女性受到乳腺癌的影响,62%的男性和女性受到结肠癌的影响,90%的女性受到卵巢癌的影响(Matsushita et al., 2010)。在早期,癌症诊断技术已呈现出下降的趋势,在21世纪前十年,分子生物标志物的出现有助于在早期识别癌症疾病。在目前的研究中,使用乳腺癌、结肠癌和卵巢癌这三种癌症模型是有助于利用微阵列技术确定分子标记。

 

在本年度内,全球范围内有910万名女性受到乳腺癌的影响,此外,每年有232 670名女性在被诊断患有乳腺癌。其中有30%的女性人口是由于遗传异常引起的,如BRCA1和BRCA2基因突变(Dumitrescu et al., 2005)。此外,还有一些其他的致癌基因如p53、PTEN、K-RAS、NBS1等也能够引起乳腺癌(Honrado et al., 2006)。结肠癌也经常影响到其他组织,例如肺部和乳腺组织。K-ras、p53、APC、GSK-3β和β-catenin基因的改变,主要影响Wnt-β-acatenin信号通路,进而影响乳腺癌和卵巢癌(Vogelstein et al., 1988; Fearon et al., 1990)。对于女性而言,卵巢上皮癌也是一种非常危险的癌症类型,p53、MDM2、MCI-2、BCL-XL、、EGFR和NOXA等基因的突变主要参与卵巢癌(Baekelandt et al., 1999; Kupryjanczyk et al., 2003; Nielsen et al., 2004)。一些遗传标记已经被提出用于识别癌症,如乳腺癌的BRCA1、BRCA2基因,结肠癌的APC、GSK-3β基因和卵巢癌的CA125基因。此外,还有很多的血清标志物,有助于临床上对于乳腺癌、结肠癌和卵巢癌的诊断。然而,其检测更多的遗传标记的有效性却受到了怀疑,广大的研究者建议应该使用更先进的技术,例如DNA微阵列技术对成千上万个与癌症显著性相关的基因进行遗传识别(Golub., 2001; Elvidge., 2006)。

 

在此,我们在微阵列数据的基础上提出了计算方法来预测三种类型癌症的遗传标记。采用不同的算法对这些数据进行预处理,生物显著预测强度值显示筛选的数据集的质量;利用统计技术来预测上调和下调的差异基因表达。基于高层次的计算能力,我们比较了Meta分析来预测多种癌症类型的标记。使用基因-基因网络研究显示了不同的显著基因,特别是对多种癌症类型的具体检测。我们相信这些新的基因,显示基因图谱的表达将提供高价值的标志物,在癌症的诊断和治疗上提供新的方法。

 

1材料与方法

乳腺癌,结肠癌和卵巢癌这三种不同的癌症疾病的Meta分析的数据从GEO数据库中检索。乳腺癌的数据(GEO ID: GSE30543) 6例,关于sum149与siRNA的对照和siRNA对TIG1复制子的靶向作用(Wang et al., 2013)。结肠癌的数据(GSE34299)包括4株HT29亲代细胞株和HT29RC PLX4720耐药细胞株,其是通过提高药物的浓度以提高获得菌株的性耐药(Mao et al., 2012)。卵巢癌数据(GSE35972)包括6个未经处理的TOV112D细胞与不同生物学重复处理的NSC319726细胞样品(Yu et al., 2012)。所有不同的样本数据进行了GPL570 (HG -U133_PLUS_2) Affymetrix人类全基因组芯片平台分析。在不同的转录突变体中,HG-U95Av2探针是相同的复制,所有的RNA探针均来自RefSeq、dbEST和GenBank。序列簇从UniGene数据库获取构建,基因的名称来自于公开可用的数据库。运用统计分析软件如R和Bioconductor对乳腺癌、卵巢癌和结肠癌的基因进行分析预处理和差异表达基因分析,以作为潜在的药物靶点。

 

1.1原始微阵列数据的预处理

使用Bioconductor包的Affy和Affycoretools用于预处理数据(Team., 2012; Robinson et al., 2010),利用不同的算法,如使用RMA和MAS5算法对数据进行预处理,有助于消除所有探针数据的前景和背景。使用不同的统计技术方法如常量、变量等处理标准化的探针,以对PM和MM值进行预测修正。然而,MM探针的信号强度通常大于PM探针,MM探针可以检测到真正的信号和背景信号。校正后的信号强度水平用于分析每种疾病的差异基因表达。

 

1.2差异基因表达分析

数据进行预处理后,生成的CEL文件用于分析细胞差异基因的表达情况。利用Limma软件包对来自于microRNA样品的差异基因表达数据进行分析。对于两个样品的对照组和癌症组出现的差异水平的改变进行分析,发现基因表达发生了上调或者下调。对样品中表达模式相同的一类基因进行聚类分析,或者对具有相似表达模式基因的样品进行聚类,每个样本进行多组重复。一个探针在组中的表达水平被认定为该组所有重复处理的平均表达水平。因此,差异表达的问题就是方法的比较。当存在两个样本组的时候,这仅仅是一个测试(Prashantha et al., 2013)。聚类试验能够对上调和下调的基因进行聚类分析,相关系数B值能够对空白-癌症组数据进行差异表达基因的层次聚类分析。用树状图表示各个目标之间的关系(Parker et al., 2009),使用GO.db包工具对差异表达基因进行注释。利用GO注释的HGU 133+2包能够有助于了解发生差异表达基因所参与的生物过程、分子功能或者细胞组分等系统分类功能。

 

1.3差异表达基因的比较分析

利用遗传学分类算法,通过基因网络分析,对不同的疾病进行差异表达基因分类。全基因组关联研究对表达的基因群,或者等级基因的表达矩阵文件,以及不同变量的探针进行优化整理。利用基于分类器的多种SVM对所需要的基因进行分类选择;对于基因间共有的信息(相互作用)和共表达的信息(有关系的)利用算法进行统计和分析。这些分析能够评估可变因素间的关联度,据此可以为每个等级内的基因建立一个网络。这些网络是可以绘制的,根据每种疾病的特征提供具有综合该属性的基因群。

 

1.4功能注释和富集分析

为了从细胞水平获得这些差异表达基因的功能,我们利用GO数据库对这些基因的功能和所在细胞的位置进行了分类。我们通过使用Cluster Profiler执行GO聚类分析,来分析这些差异表达基因在细胞内在分子功能和生物学过程中对细胞产生的影响。注释的数据库、可视化以及数据集成工具被用来确定代表生物功能和途径的差异表达基因。

 

2结果与讨论

本研究的重点是对于三种最常见的癌症类型的数据分析,例如从公共数据库GEO中获取的6组乳腺癌、4组结肠癌和6组卵巢癌的微阵列数据。该数据集包含有与对照组相对应的癌症基因组数据,有助于预测个体癌症类型或癌症基因与基因之间的相互作用的药物靶点。

 

2.1单个癌症类型的药物靶点预测

我们搜集了每种癌症类型的个体数据,根据癌症类型和其控制的组织对基因表达模式进行了分类。具体而言,所有的数据被分类,根据特别区分的癌症类型和其控制的组织进行药物靶点的预测。此外,我们对根据基因与基因之间的相互作用而分类的显著表达的上调或下调的K-genes进行了分类。

 

2.1.1乳腺癌

乳腺癌的数据集中包括6个样本,其中3组SUM149细胞转染siRNA作为对照组,另3组SUM149细胞转入siRNA靶点tarzarotene诱导的TIG1基因。这6个样本利用hgu133+2对54675个基因进行了注释,利用传统的方法,通过P值的显著性来筛选基因,我们筛选出54675个基因,其中12788个基因与表达显著相关。在乳腺癌中发生表达差异的基因中,有1220个基因表达上调,11568个基因表达下调。利用SVM分类法,我们已经鉴定了1275个最常见的与乳腺癌显著相关的基因。在1275个基因中有751个编码蛋白质的基因,这些蛋白质编码基因,有助于预测疾病的靶基因,进而帮助药物靶标控制疾病(图1)。利用功能注释和富集分析130个显著上调的基因,例如SHISA2、FBXO23、mmp7、fn1、Cfi、Egr1、DCLK1、DCN、SERPINB3、SERPINB4、MAP3K4、ITGBL1、OLFML3、NPY1R和PHLDA1基因,这些基因主要与乳腺癌的转录调控相关(表1)。使用基因与基因间的相互作用研究各类基因发现30个与基因调控显著相关的基因。有8个基因如fbxo23、MMP7、FN1、CFI、DCN、SERPINB3、SERPINB4和MAP3K4在血清内乳腺细胞表达,可以作为潜在的血清标志物(表1表2, 图2)。

 

  
 图 1 乳腺癌细胞中疾病组和对照组发生差异表达的重要基因

Figure 1 Significant genes of breast cancer cells that differentially expressed in disease and control tissues

 

  
图 2 利用geNETClassifier预测乳腺癌数据中基因-基因相互作用网络

Figure 2 Gene-gene interaction network predicted using geNETClassifier on breast cancer data 

 

 
表 1 差异表达基因与乳腺癌的基因突变显著相关

Table 1differentially expressed genes is significantly associated with genetic mutation of breast cancer

 

 
表 2 乳腺癌中参与基因与基因相互作用的重要基因

Table 2 Significant genes in breast cancer that is involved in gene-gene interaction

 

2.1.2结肠癌

我们的分析采用4个数据集,其中2个样品为HT29亲代细胞系,另外2个样本为HT29RC PLX4720耐药细胞株。我们已经发现,在HT29RC细胞系中,有268个基因的表达发生了上调,有1268个基因的表达下调与细胞系和所控制的组织有关。利用SVM分类法从结肠癌数据中鉴定出具有显著差异表达的基因60个,其中有45个基因具有蛋白表达,这些基因结合在一起在结肠癌组织中发生上调和下调表达(图3)。我们发现有10个基因在结肠组织的血清中普遍表达,并有可能作为一个最好的预测功能的生物标志物。对这些差异表达基因的功能注释和富集分析结果显示,KRAS、DPT、PROM1、MMP1、MMP7、FBN2、MAOB、SPRR3、PHLDB2、EMP1、DCLK1和AKAP12是结肠癌的调节基因(表3表4)。MMP1和MMP7基因主要参与结肠组织中的免疫调节,K-ras基因是一个致癌基因,其通过抑制p53基因表达与MDM2蛋白受体而进行转录调控以引起结肠癌(图4)。

 

 
图 3 结肠癌细胞中疾病组和对照组发生差异表达的重要基因

Figure 3 Significant genes of colon cancer cells that differentially expressed in disease and control tissues 

 

 
图 4 利用geNETClassifier预测结肠癌数据中基因-基因相互作用网络

Figure 4 Gene-gene interaction network predicted using geNETClassifier on colon cancer 

 

 
表 3 差异表达基因与结肠癌的遗传突变显著相关

Table 3 Differentially expressed genes is significantly associated with genetic mutation of colon cancer

 

 
表 4 结肠癌中参与基因-基因相互作用的重要基因

Table 4 Significant genes in colon cancer that is involved in gene-gene interaction 

 

2.1.3卵巢癌

卵巢癌的研究也是设置6个样本,其中3个是对TOV112D细胞利用p53靶向治疗,另3个样本是对NSC319726细胞利用p53靶向治疗。在所有54675个基因中,有1566个基因的差异性表达与卵巢癌有关。基于显著性检验,其中在卵巢组织中有810个基因发生表达上调,756个基因发生表达下调(图5)。使用SVM分类的方法我们对所有的数据的显著性基因进行了分类,结果显示只有309个基因的表达与卵巢癌有关。其中175个基因是与TOV112D细胞和NSC319726细胞有关的p53突变基因,这些基因能够靶向治疗卵巢癌,可以作为最好的生物标志物(表5表6)。目前研究结果显示的部分与卵巢癌具有相关性的基因有CDKN1A、PTEN、MDM2、DDB2、GADD45A、FANCC、HRAS、MLH1、DNMT1、VDR、PMS2、APC、TP53I3、MSH2、IGFBP3、EGFR、APC、MSH2、MET、CHMP4C、BIRC5、EGFR、TP53TP63等(图6图7)。

 

 
图 5 卵巢癌细胞中疾病组和对照组发生差异表达的重要基因

Figure 5 Significant genes of ovarian cancer cells that differentially expressed in disease and control tissues 

 

 
图 6 利用geNETClassifier预测卵巢癌数据中基因-基因相互作用网络

Figure 6 Gene-gene interaction network predicted using geNETClassifier on ovarian cancer 

 

 
图 7 卵巢癌中前52位基因特征相互作用网络

Figure 7 Top 52 gene signature interaction network on ovarian cancer types

 

 
表 5 差异表达基因与卵巢癌的遗传突变显著相关

Table 5 Differentially expressed genes is significantly associated with genetic mutation of Ovarian cancer 

 

 
表 6 卵巢癌中参与基因-基因相互作用的重要基因

Table 6 Significant genes in ovarian cancer that is involved in gene-gene interaction 

 

3结论

本研究利用统计学的方法来对与乳腺癌、结肠癌和卵巢癌显著相关的差异表达基因进行预测分析。这种不同的计算方法,能够在癌症组织中像单个基因标志物那样预测出生物标志物。在所有癌症类型的分析中使用功能富集分析已经确定了不同的功能特性的基因,特别是有助于生物标志物。使用这种方法,有助于在感染疾病的早期以及疾病发展中进一步鉴定生物标志物。该方法基于个体基因来提供分析信息,这对于阐明癌症途径,以及加快特定癌症的潜在药物靶点的搜索有助于提供有用的信息。

 

致谢

我们感谢创始人兼首席执行官、总经理、科学家Prashantha C.N.,先生,感谢班加罗尔实验室配套的设计项目、实验方法和对本稿件所做出的贡献。我们也感谢计算机科学中心的Mamatha给我们提供实际的方法,对我们目标的一步一步实现提供了具有价值的指导。我也感谢我的父母对我的支持,使我的项目得以成功。我们更感谢Prashantha对我们项目的成功指导。

 

利益冲突

所有作者都接受出版这篇文章。

 

参考文献

Baekelandt M, Kristensen GB, Nesland JM, Tropé CG, Holm R. 1999. “Clinical significance of apoptosis-related factors p53, Mdm2, and Bcl-2 in advanced ovarian cancer.” J Clin Oncol, 17: 2061

 

Cancer Fact sheet N°297". Feb 2014. “World Health Organization”, Retrieved 10 June 2014.

 

Dumitrescu RG, Cotarla I., 2005, “Understanding breast cancer risk--wh ere do we stand in 2005?” J Cell Mol Med, 9:208–21

 

Elvidge G. 2006. “Microarray expression technology: from start to finish.” Pharmacogenomics 7: 123–134.

 

Fearon ER and Vogelstein B. 1990, “A genetic model for colorectal tumorigenesis.” Cell, 61, 759–767.

 

Golub TR. 2001. “Genome-wide viewsofcancer.” N Engl J Med 344: 601–602

 

Honrado E, Osorio A, Palacios J, Benitez J. 2006. “Pathology andgene expression of hereditary breast tumors associated with BRCA1, BRCA2 and CHEK2 gene mutations.” Oncogene, 25:5837–45

 

Kupryjańczyk J, Szymańska T, Madry R, Timorek A, Stelmachów J, Karpińska G, Rembiszewska A, Ziółkowska I, Kraszewska E, Debniak J, Emerich J, Ułańska M, Płuzańska A, Jedryka M, Goluda M, Chudecka-Głaz A, Rzepka-Górska I, Klimek M, Urbański K, Breborowicz J, Zieliński J, Markowska J. 2003. “Evaluation of clinical significance of TP53, BCL-2, BAX and MEK1 expression in 229 ovarian carcinomas treated with platinum-based regimen.” Br J Cancer, 88: 848–854

 

Matsushita K, van der Velde M, Astor BC, Woodward  M,  Levey  AS,  de Jong PE, Coresh J, Gansevoort RT. Chronic Kidney Disease Prognosis Consortium. 2010. “Association of estimated glomerular filtration rate and albuminuria with all-cause and cardiovascular mortality in general population cohorts: a collaborative meta-analysis. ” Lancet, 375:2073–2081.

 

Mao M, Tian F, Mariadason JM, Tsao CC, Lemos RJr, Dayyani F, Gopal YN, Jiang ZQ, Wistuba II, Tang XM, Bornman WG, Bollag G, Mills GB, Powis G, Desai J, Gallick GE, Davies MA, Kopetz S. 2012. “Resistance to BRAF inhibition in BRAF-mutant colon cancer can be overcome with PI3K inhibition or demethylating agents.” Clin Cancer Res, 19(3):657-67.

 

Nielsen JS, Jakobsen E, Hølund B, Bertelsen K, Jakobsen A. 2004, “Prognostic significance of p53, Her-2, and EGFR overexpression in borderline and epithelial ovarian cancer.” Int J Gynecol Cancer 14: 1086–1096

 

Prashantha Nagaraja, Kavya Parashivamurthy, Nandini Sidnal, Siddappa Mali, Dakshyani Nagaraja, and Sivarami Reddy. 2013, “Analysis of  gene expression on ngn3 gene signaling pathway in endocrine pancreatic cancer.” Bioinformation, 9(14): 739–747.

 

Parker JS, Mullins M, Cheang MCU, Leung S, Voduc D. 2009. “Supervised Risk Predictor of Breast Cancer Based on Intrinsic Subtypes.” Journal of Clinical Oncology 27: 1160–1167

 

R Core Team, 2012. R: a language and environment forstatistical computing. Vienna, Austria: R Foundation for Statistical Computing.

 

Robinson MD, McCarthy DJ, Smyth GK. 2010. “EdgeR: a bioconductor package for differential expression analysis of digital gene expression data.” Bioinformatics, 26:139–140

 

Vogelstein B, Fearon ER, Hamilton SR, Kern SE, Preisinger AC, Leppert M, Nakamura Y,  White R, Smits AM and Bos JL. 1988. “Genetic alt erations during colorectal-tumor development. ” N. Engl. J. Med., 319, 525–532.

 

Wang X1, Saso H, Iwamoto T, Xia W, Gong Y, Pusztai L, Woodward WA, Reuben JM, Warner SL, Bearss DJ, Hortobagyi GN, Hung MC, Ueno NT. 2013. “TIG1 promotes the development and progression of inflammatory breast cancer through activation of Axlkinase.” Cancer Res, 73(21):6516-25.

 

Yu X, Vazquez A, Levine AJ, Carpizo DR. 2012. “Allele-specific p53 mutant reactivation.” Cancer Cell, 21(5):614-25.

计算分子生物学
• 第 4 卷
阅览选项
. PDF(812KB)
. 全文 HTML
读者评论
. 评论
作者的其他论文
.
Shashank K.S.
.
Mamatha H R.
.
Prashantha C.N.
相关论文
.
乳腺癌
.
结肠癌
.
卵巢癌
.
基因芯片
.
统计
.
Limma, Biocoductor
.
geNETClassifier
服务
. Email 推荐给朋友
. 发表评论